Alteryx Designer Cloudのツール紹介:Sampleツール #Alteryx
こんにちは、スズです。
本記事では、Alteryx Analytics CloudのDesigner CloudにあるSampleツールについてご紹介します。
Sampleツールの概要
Sampleツールは、Preparationのカテゴリの中にあります。
Sampleツールは、最初のN行、最後のN行といったサンプリング方法を指定し、データセットの一部を取り出すことができます。
Sampleツールの設定
Sampleツールの設定は、サンプリング方法の設定と、レコードをソートする条件の設定があります。また、オプションとして、グループ化の設定があります。
サンプリング方法
サンプリング方法は、First N Rows、Last N Rows、First N% of rows、1 in N Chance to Include Each Rowがあります。サンプリング方法にあるNには、任意の数字を設定できます。なお、Sampleツールはデータのソートの設定が必須になっており、ソートされた後のデータに対してサンプリングの条件でデータを抽出します。抽出した結果が意図したとおりになるように、ソートの設定を行う必要があります。
以下のデーセットを使って、それぞれのサンプリング方法をみていきます。ここでは、ID列を昇順でソートしています。
First N Rows
First N Rowsは、データセットの最初のN行を抽出します。
以下の例では、N=5
と設定しているため、最初の5行のデータが抽出されています。
Last N Rows
Last N Rowsは、データセットの最後のN行を抽出します。
以下の例では、N=5
と設定しているため、最後の5行のデータが抽出されています。
First N% of rows
First N% of rowsは、データセットから最初のN%のレコードを抽出します。First N% of rowsでは、行数の計算を行った後、指定された割合でデータを抽出します。出力アンカーにデータが表示されなかった場合は、いったん入力アンカーに表示を切り替えるなどを行うことで、データが表示されます。
以下の例では、N=20
と設定しているため、元のデータの10行から最初の2行のデータが抽出されています。
1 in N Chance to Include Each Row
1 in N Chance to Include Each Rowは、各行をサンプルとして抽出するかをランダムに決定します。ヘルプの説明によると、例えば、1,000行のデータセットに対してN=10
と設定した場合、75~100行が抽出される可能性があるとあります。
以下の例では、N=2
と設定しています。元のデータの10行に対して、4行が抽出されています。
Sample records based on order:
Sampleツールでは、入力アンカーのレコードの順序は維持されません。データの抽出した結果が意図したとおりとなるように、Sample records based on orderにてレコードの順序の指定が必要です。
- Column Name: ソートの基準となる列
- Order: ソートの処理の選択
- Ascending: 昇順
- Descending: 降順
ソートは複数の条件を設定できます。[Add Column]をクリックすると、条件を追加することができます。
複数のソートの条件がある場合、上から順番に処理されます。条件の順番は、各条件の左端のボタンをクリックしてスライドするか、条件を選択した状態で矢印([Up]と[Down])をクリックすることで、入れ替えることができます。
不要な条件は、ごみ箱のアイコンの[Remove]ボタンで削除できます。
Columns to Group By (Optional)
Columns to Group Byでは、データセットに対してグループ化を行い、グループ化された状態でデータの抽出を行います。サンプリング方法が1 in N Chance to Include Each Rowの場合、グループ化は使用できません。
例として、以下のようなデータに対して、Column1列に対してグループ化を行い、最初の1行を抽出します。
Sampleツールの処理の結果、Column1列の値が同じレコードごとに、最初の1行目が抽出されます。
最後に
Alteryx Analytics CloudのDesigner CloudのSampleツールについてご紹介しました。